游戏历史悠久的历史悠久地作为人工智能进步的基准。最近,使用搜索和学习的方法在一系列完美的信息游戏中表现出强烈的表现,并且使用游戏理论推理和学习的方法对特定的不完美信息扑克变体表示了很强的性能。我们介绍游戏玩家,一个通用算法,统一以前的方法,结合导游搜索,自助学习和游戏理论推理。游戏播放器是实现大型完美和不完美信息游戏中强大实证性能的第一个算法 - 这是一项真正的任意环境算法的重要一步。我们证明了游戏玩家是声音,融合到完美的游戏,因为可用的计算时间和近似容量增加。游戏播放器在国际象棋上达到了强大的表现,然后击败了最强大的公开可用的代理商,在头上没有限制德克萨斯州扑克(Slumbot),击败了苏格兰院子的最先进的代理人,这是一个不完美的信息游戏,说明了引导搜索,学习和游戏理论推理的价值。
translated by 谷歌翻译
Researchers have demonstrated that neural networks are vulnerable to adversarial examples and subtle environment changes, both of which one can view as a form of distribution shift. To humans, the resulting errors can look like blunders, eroding trust in these agents. In prior games research, agent evaluation often focused on the in-practice game outcomes. While valuable, such evaluation typically fails to evaluate robustness to worst-case outcomes. Prior research in computer poker has examined how to assess such worst-case performance, both exactly and approximately. Unfortunately, exact computation is infeasible with larger domains, and existing approximations rely on poker-specific knowledge. We introduce ISMCTS-BR, a scalable search-based deep reinforcement learning algorithm for learning a best response to an agent, thereby approximating worst-case performance. We demonstrate the technique in several two-player zero-sum games against a variety of agents, including several AlphaZero-based agents.
translated by 谷歌翻译
Traditionally, data analysis and theory have been viewed as separate disciplines, each feeding into fundamentally different types of models. Modern deep learning technology is beginning to unify these two disciplines and will produce a new class of predictively powerful space weather models that combine the physical insights gained by data and theory. We call on NASA to invest in the research and infrastructure necessary for the heliophysics' community to take advantage of these advances.
translated by 谷歌翻译
Decentralized learning with private data is a central problem in machine learning. We propose a novel distillation-based decentralized learning technique that allows multiple agents with private non-iid data to learn from each other, without having to share their data, weights or weight updates. Our approach is communication efficient, utilizes an unlabeled public dataset and uses multiple auxiliary heads for each client, greatly improving training efficiency in the case of heterogeneous data. This approach allows individual models to preserve and enhance performance on their private tasks while also dramatically improving their performance on the global aggregated data distribution. We study the effects of data and model architecture heterogeneity and the impact of the underlying communication graph topology on learning efficiency and show that our agents can significantly improve their performance compared to learning in isolation.
translated by 谷歌翻译
由于其物理能力,模拟的类人动物是一个吸引人的研究领域。尽管如此,他们也在控制方面具有挑战性,因为政策必须推动不稳定,不连续和高维物理系统。一种经过广泛研究的方法是利用运动捕获(MOCAP)数据来教授类人动物的低水平技能(例如,站立,步行和跑步),然后可以重新使用以综合高级行为。但是,即使使用MOCAP数据,控制模拟的类人动物仍然非常困难,因为MOCAP数据仅提供运动学信息。寻找物理控制输入以实现所示动作需要计算密集型方法,例如增强学习。因此,尽管有公开可用的MOCAP数据,但其效用仍限于具有大规模计算的机构。在这项工作中,我们通过训练和释放高质量的代理,可以大大降低有关该主题的生产研究的障碍,这些代理可以在基于DM_Control物理学的环境中跟踪三个小时的MOCAP数据以上的MOCAP数据。我们释放Mocapact(动作动作捕获),这些专家代理的数据集及其推出,其中包含本体感受观察和动作。我们通过使用它来训练单个层次结构策略来证明MOCAPACT的实用性,该策略能够跟踪DM_Control中的整个MOCAP数据集并显示学习学到的低级组件可以被重新使用以有效地学习下游高级任务。最后,我们使用MoCapact训练自动回旋GPT模型,并表明它可以控制模拟的类人动物以在运动提示下执行自然运动完成。结果和指向代码和数据集的链接的视频可在https://microsoft.github.io/mocapact上获得。
translated by 谷歌翻译
本文提出了一种新的FNC-1假新闻分类任务的方法,其中涉及使用类似NLP任务的预训练编码器模型,即句子相似性和自然语言推断,并提出了使用这种方法的两个神经网络架构。探讨了数据增强方法作为解决数据集中的类不平衡的一种手段,采用常见的先前存在的方法,并提出了一种使用新句子否定算法的代表性不足类中样本生成的方法。与现有基线相当的总体性能是可比的,而对于FNC-1的代表性不足但仍然重要的类别的准确性显着提高了准确性。
translated by 谷歌翻译
近年来,自我监督的学习在涉及计算机视觉和自然语言处理的应用中取得了重大成功。借口任务的类型对性能提升至关重要。一个常见的借口任务是图像对图像之间的相似性和异化的量度。在这种情况下,构成负对的两个图像与人类明显不同。然而,在昆虫学中,物种几乎无法区分,因此难以区分。在这项研究中,我们探讨了暹罗神经网络的表现,通过学习使用对比损失来推动大黄蜂物种对的嵌入,这是不同的,并将相似的嵌入物汇集在一起。我们的实验结果显示了零射击实例的61%F1分数,表现出对与培训集交叉口的类别的提高11%的性能。
translated by 谷歌翻译
分类器通常在时间约束的设置中使用,其中必须将标签分配给快速输入。为了解决这些方案,预算的多级分类器(MSC)通过一系列部分特征获取和评估步骤,直到可以进行自信的预测,通过一系列部分特征获取和评估步骤输入。这允许快速评估,可以在时间关键实例中预防昂贵的不必要的特征获取。然而,MSCs的性能对几个设计方面非常敏感 - 使这些系统的优化成为一个重要但困难的问题。为了近似最初的难以应变的组合问题,电流对MSC配置的方法依赖于良好的代理损失函数占两个主要目标(处理成本,错误)。这些方法在许多情况下证明是有用的,但受到分析限制(凸,平滑等)的限制,并且不管理额外的性能目标。值得注意的是,这些方法没有明确地解释实时检测系统的一个重要方面 - 满足风险厌恶监视器施加的一些置信标准的“可接受”预测的比率。本文提出了一种特定于特定于问题的遗传算法的EMSCO,其包括终端拒绝选项,以便犹豫不决预测,并将MSC设计视为具有不同目标的进化优化问题(准确性,成本,覆盖)。该算法的设计强调了Pareto效率,同时尊重通过独特的标定化概念聚合性能的概念。进行实验以展示EMSCO在各种θ(k ^ n)解决方案空间中找到全球最佳的能力,并且多个实验表明EMSCO与替代预算方法具有竞争力。
translated by 谷歌翻译
促进辅助(AAN)控制旨在通过鼓励患者积极参与促进机器人辅助康复的治疗结果。大多数AAN控制器使用阻抗控制来在目标运动周围创建柔性的力字段,以确保在允许中等运动错误的同时进行跟踪精度。然而,由于控制力场的形状的参数通常根据关于关于对象学习能力的简单假设在线手动调整或在线调整,因此可以限制传统AAN控制器的有效性。在这项工作中,我们提出了一种新颖的自适应AAN控制器,其能够根据每个单独的电动机能力和任务要求自动重塑力场以相位相关的方式重塑力场。该拟议的控制器包括使用路径积分算法的修改策略改进,一种无模型的采样的增强学习方法,该方法实时地学习了特定于主题的阻抗景观,以及嵌入AAN PARADIGM的分层策略参数评估结构通过指定性能驱动的学习目标。通过跑步机培训课程通过具有能够在动力踝足矫形器的协助学习改变的步态模式的跑步机培训课程,通过跑步机培训课程进行实验验证,拟议的控制策略及其促进短期运动适应能力的适应性。
translated by 谷歌翻译
为解决命名实体识别的未加产评估的迫切危机,我们提出了指导方针并介绍了SEQSCORE,这是一个软件包,以提高再现性。我们提出的指导方针非常简单,围绕透明度的透明度,有关块的编码和得分如何。我们证明,尽管NER评估的明显简单,评分过程中的未报告差异可能导致分数的变化,这些分数是显着的幅度和统计上显着的分数。我们描述了SEQSCORE,它解决了许多导致复制失败的问题。
translated by 谷歌翻译